Alineación de teléfono a audio independiente del texto aprovechando la representación latente del modelo preentrenado TIPAA-SSL y la transferencia de conocimiento
Autores: Tits, Noé; Bhatnagar, Prernna; Dutoit, Thierry
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Alineación de teléfono a audio independiente del texto aprovechando la representación latente del modelo preentrenado TIPAA-SSL y la transferencia de conocimiento
Categoría
Artes
Subcategoría
Música
Palabras clave
Enfoque novedoso
Alineación de teléfono a audio
Reconocimiento de fonemas
Aprendizaje de representaciones
Transferencia de conocimiento
Modelo auto-supervisado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
En este artículo, presentamos un enfoque novedoso para la alineación de teléfono a audio independiente del texto basado en el reconocimiento de fonemas, el aprendizaje de representaciones y la transferencia de conocimiento. Nuestro método aprovecha un modelo auto-supervisado (Wav2Vec2) ajustado para el reconocimiento de fonemas utilizando una pérdida de Clasificación Temporal Conexista (CTC), un modelo de reducción de dimensiones y un clasificador de fonemas a nivel de cuadro entrenado utilizando etiquetas de alineación forzada (usando Montreal Forced Aligner) para producir representaciones fonéticas multilingües, requiriendo así un entrenamiento adicional mínimo. Evaluamos nuestro modelo utilizando datos nativos sintéticos del conjunto de datos TIMIT y del conjunto de datos SCRIBE para el inglés americano y británico, respectivamente. Nuestro modelo propuesto supera al estado del arte (charsiu) en métricas estadísticas y tiene aplicaciones en el aprendizaje de idiomas y sistemas de procesamiento de voz. Dejamos los experimentos en otros idiomas para trabajos futuros, pero el diseño del sistema lo hace fácilmente adaptable a otros idiomas.
Descripción
En este artículo, presentamos un enfoque novedoso para la alineación de teléfono a audio independiente del texto basado en el reconocimiento de fonemas, el aprendizaje de representaciones y la transferencia de conocimiento. Nuestro método aprovecha un modelo auto-supervisado (Wav2Vec2) ajustado para el reconocimiento de fonemas utilizando una pérdida de Clasificación Temporal Conexista (CTC), un modelo de reducción de dimensiones y un clasificador de fonemas a nivel de cuadro entrenado utilizando etiquetas de alineación forzada (usando Montreal Forced Aligner) para producir representaciones fonéticas multilingües, requiriendo así un entrenamiento adicional mínimo. Evaluamos nuestro modelo utilizando datos nativos sintéticos del conjunto de datos TIMIT y del conjunto de datos SCRIBE para el inglés americano y británico, respectivamente. Nuestro modelo propuesto supera al estado del arte (charsiu) en métricas estadísticas y tiene aplicaciones en el aprendizaje de idiomas y sistemas de procesamiento de voz. Dejamos los experimentos en otros idiomas para trabajos futuros, pero el diseño del sistema lo hace fácilmente adaptable a otros idiomas.